Adline125's Blog

NLP Engineer, Google Developers Expert

0%

Bidirectional LSTM-CRF Models for Sequence Tagging

本文是对论文Bidirectional LSTM-CRF Models for Sequence Tagging的总结。文章系统地比较了基于LSTM网络的各种序列标记模型的性能。 并在当时首次将BI-LSTM-CRF模型应用于NLP基准序列标记任务。 其中,BI-LSTM-CRF模型在词性标注,分块和命名实体识别任务上表现最优。模型具有鲁棒性且对单词嵌入的依赖性较小,甚至可以无需借助词嵌入达到一定的精度。

本文的主要内容包括:

  • 基于LSTM的序列标模型
  • 模型训练
  • 数据和特征
  • 结论

基于LSTM的序列标模型


RNN模型:对每一个时刻 \[ \begin{split} { h ( t ) = f ( U x ( t ) + W h ( t - 1 ) ) }\quad\quad\quad(1)\\ { y ( t ) = g ( V h ( t ) ) }\quad\quad\quad\quad\quad\quad\quad\quad\quad(2) \\ f ( z ) = \frac { 1 } { 1 + e ^ { - z } }\quad\quad\quad\quad\quad\quad\quad\quad\quad(3)\\ g ( z _ { m } ) = \frac { e ^ { z _ { m } } } { \sum _ { k } e ^ { z _ { k } } }\quad\quad\quad\quad\quad\quad\quad\quad\quad(4) \end{split} \\ \]

LSTM模型:对每一个时刻 \[ \begin{split} { i _ { t } = \sigma ( W _ { x i } x _ { t } + W _ { h i } h _ { t - 1 } + W _ { c i } c _ { t - 1 } + b _ { i } ) }\quad\quad\quad(5)\\ { f _ { t } = \sigma ( W _ { x f } x _ { t } + W _ { h f } h _ { t - 1 } + W _ { c f } c _ { t - 1 } + b _ { f } ) }\quad\quad(6)\\ { c _ { t } = f _ { t } c _ { t - 1 } + i _ { t } \tanh ( W _ { x c } x _ { t } + W _ { h c } h _ { t - 1 } + b _ { c } ) }\quad(7)\\ {o _ { t } = \sigma ( W _ { x o } x _ { t } + W _ { h o } h _ { t - 1 } + W _ { c o } c _ { t } + b _ { o } ) } \quad\quad\quad(8) \\ h _ { t } = o _ { t } \tanh ( c _ { t } )\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad(9) \end{split} \\ \]

LSTM Networks

Bidirectional LSTM Networks

####CRF networks

LSTM-CRF network

BI-LSTM-CRF networks

模型训练


模型训练过程如下:

其中,batch_size = 100.

数据和特征


数据

文章通过三个任务来比较模型,三个任务对应的数据为:

  • POS tagging:Penn TreeBank (PTB)
  • chunking:CoNLL 2000
  • named entity tagging:CoNLL 2003

具体如下:

####特征

文章中使用的特征主要有三类:

  • Spelling features
  • Context features
  • Word embedding

其中,拼写特征和上下文特征是直接加在输出层的,如下图:

实验对比结果


结论


文章的主要贡献:

  • 系统对比了基于LSTM的各种模型在序列标注任务中的表现
  • 首次应用双向LSTM+CRF模型在NLP序列标注语料集上
  • 实验证明双向LSTM+CRF在序列标注任务上较其他模型表现最优

参考文献


Bidirectional LSTM-CRF Models for Sequence Tagging